رده بندی خودکار متون با استفاده از روش های هوش محاسباتی

پایان نامه
چکیده

با رشد چشم گیر استفاده از اینترنت، حجم اسناد متنی دیجیتال موجود نیز به صورت نمایی افزایش می یابد. از این رو، یافتن اطلاعات مفید از این اسناد متنی در کاربردهای بسیاری اهمیت پیدا کرده است که رده بندی خودکار متون، تکنولوژی کلیدی برای این منظور است. به ازای هر سند متنی، واژه‎ها نقش ویژگی را در رده بندی ایفا می کنند که با توجه به حجم زیاد واژه در زبان طبیعی، این مسأله منجر به ایجاد مشکل ابعاد زیاد ویژگی می شود. بنابراین، در رده بندی متون علاوه بر انتخاب یادگیرنده ی مناسب، انتخاب ویژگی نیز از اهمیت ویژه ای برخوردار است. در این پایان نامه، هدف طراحی یک سیستم رده بندی کارا است که با حداقل ویژگی، کارایی نهایی یادگیرنده را افزایش دهد. در این سیستم یک روش ترکیبی همگن، مبتنی بر زیرمجموعه های متفاوت ویژگی بررسی می شود که باعث بهبود کارایی رده بند پایه در حداقل تعداد ویژگی می-گردد. به منظور تولید زیرمجموعه ها از تکنیک های فیلتری استفاده شده تا زمان ایجاد کامل مدل نسبت به تکنیک های پوششی به حداقل برسد. در مرحله ی یادگیری، سه رده بند ماشین بردارپشتیبان، رگرسیون لجستیک بیزی و درخت تصمیم بررسی شده اند. نتایج به دست آمده بر روی مجموعه داده ی رویترز-21578، بر اساس دو معیار میکرو-f1 و ماکرو-f1، نشان دهنده ی کارایی بالای سیستم ارائه شده نسبت به رده بندهای منفرد و حتی سیستم ترکیبی ناهمگن است. بالاترین کارایی مربوط به سیستم مبتنی بر ماشین بردار پشتیبان و روش ترکیب کمینه، با مقدار 0.97 برای میکرو-f1 و 0.921 برای ماکرو- f1 است.

منابع مشابه

استخراج خودکار روابط رده بندی مفاهیم از متون بدون ساختار با استفاده از روش های هوشمند پردازش متن

برای بدست آوردن روابط سلسله مراتبی در یک متن بدون ساختار، ابتدا به کمک روشهای هوشمند پردازش متن و استفاده از روابط معنایی، تمام عبارت هایی را که در متن نقش کلیدی دارند را استخراج میکنیم. هر کدام از این عبارت ها عضوی از گراف نهایی تولید شده ار متن خواهد بود. سپس با استفاده از الگوریتم خاصی به استخراج ابرنام(hypernym) هر یک از عبارت ها میپردازیم و به صورت بازگشتی این عمل تکرار می شود تا گراف رواب...

رده بندی هواپیماهای جت آموزشی پیشرفته با استفاده از روش های تحلیل سلسله مراتبی و تاکسونومی

آموزش دانشجویان خلبانی نظامی در سه مرحله مقدماتی، پایه و پیشرفته انجام می­ شود و پس از آن وارد مراحل بعدی یعنی ورود به جنگنده، جنگنده پیشرفته و اسکادران آموزشی می­ گردند. در کشورمان به دلیل عدم وجود هواپیمای جت آموزشی پیشرفته، دانشجو پس از طی دوره پایه بلافاصله وارد مرحله چهارم (ورود به جنگنده) می­ شود. هزینه یک ساعت آموزش با هواپیمای مرحله چهارم حدود 5 تا 10 برابر یک ساعت آموزش با هواپیمای مرح...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می‌شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می‌تواند در یک، چند و یا هیچ دسته‌ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می‌گیرد. این موضوع می‌تواند در قالب یک ی...

متن کامل

ارائه ی یک مدل جهت دسته‌بندی متون فارسی با استفاده از ترکیب روش های دسته بندی

برای دسته­بندی متن از تکنیک­های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دسته­بندی اسناد در قالب تعداد معینی از دسته­های از پیش تعیین شده می­باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دسته­ها قرار می گیرد. این موضوع می تواند در قالب یک ی...

متن کامل

راهکار ترکیبی نوین جهت تشخیص نفوذ در شبکه‌های کامپیوتری با استفاده از الگوریتم-های هوش محاسباتی

In this paper, a novel hybrid method is proposed for intrusion detection in computer networks using combination of misuse-based and anomaly-based detection models with the aim of performance improvement. In the proposed hybrid approach, a set of algorithms and models is employed. The selection of input features is performed using shuffled frog-leaping (SFL) algorithm. The misuse detection modul...

متن کامل

معرفی رده جدیدی در دسته بندی تشخیصی سردرد برگرفته از متون پزشکی ایرانی

سابقه و هدف: سردرد یک بیماری شایع و ناتوان کننده است که افراد در تمام سنین را تحت تاثیر قرار داده، منجر به عملکرد کاری پایین، کاهش کیفیت زندگی و تحمیل بار اقتصادی زیاد به جامعه می‌شود. علت شناسی دسته بزرگی از سردردها همچنان ناشناخته باقی مانده است. این مطالعه مروری نشان می‌دهد، گزارشاتی در سرتاسر دنیا از بیمارانی وجود دارد که علاوه بر سردرد از بیماری همراه دیگری نیز رنج می‌برند. در این مقاله دس...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شهید چمران اهواز - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023